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摘 要 : 随 着 天 文 观测 技术 的 飞速 发 展 ， 天 文 数据 处 理 软 件 日 趋 复 杂 ， 天 文 数据 处 理 环 
境 的 部 署 与 管理 日 渐 繁 琐 。 利 用 容器 技术 将 脉冲 星 数 据 处 理 环境 封装 成 容器 镜像 并 建立 私有 
镜像 库 ， 科 研 人 员 可 以 根据 数据 处 理 需求 选择 镜像 ， 实 现 数据 处 理 环 境 的 快速 部 署 。 利 用 实 
体 计 算 机 、 虚 拟 机 和 容器 中 对 脉冲 星 基带 数据 进行 相干 消 色 散 处 理 ,对比 不 同 平台 的 资源 利 
用 率 与 数据 处 理 效 率 。 实 验 结果 表明 ， 容 器 的 性 能 与 实体 计算 机 相近 ; 在 多 任务 并 发 的 数据 
处 理 测试 中 ， 容 器 的 资源 分 配 更 加 合理 ， 相 较 虚 拟 机 可 以 提高 计算 资源 利用 效率 。 在 新 疆 天 
文 台 脉 冲 星 数据 处 理 服务 器 上 实现 了 基于 容器 的 数据 处 理 架 构 部 署 ,设计 并 开发 了 容器 管理 
图 形 用 户 界 面 ， 通 过 优化 多 用 户 登 录 、 身 份 验证 、 数 据 卷 挂 载 管理 等 功能 ， 提 高 利用 容器 技 
本 进行 天 文 数据 处 理 的 效率 。 
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脉冲 星 是 大 质量 恒星 演化 到 末期 并 经 过 核 去 缩 ` 超 新 星 爆 发 后 形成 的 产物 , 具有 体积 小 、 
密度 大 、 高 速 旋转 、 强 磁场 等 特性 。 科 研 人 员 利 用 脉冲 星 研 究 宇 宙 诞 生 和 演化 点， 相关 研究 
对 于 推动 天 体 物理 学 、 粒 子 物理 学 和 卫星 导航 等 方面 的 发 展 具有 非常 重要 的 科学 意义 。 发现 
第 1 颗 射电 脉冲 星 以 来 , 其 观测 和 理论 研究 都 取得 了 飞速 发 展 , 发 现 的 脉冲 星 数 目 也 在 不 断 
增加 ， 截 至 202 年 10 月 已 确认 脉冲 星 总 数 达 3341 颗 
Chttps://www.atnf.csiro.au/research/pulsar/psrcat/) . 

新 疆 南 山 25m 射电 望远镜 (25 m NSRT) 由 中 国 科 学 院 新 疆 天 文 台 负 责 运行 。 科 研 人 员 
使 用 这 台 望 远 镜 对 近 300 颗 脉 冲 星 进行 了 长 期 计时 观测 ， 并 利用 Parkes, FAST 等 射电 望 远 
镜 获 取 了 大 量 脉 冲 星 观测 数据 。 脉 冲 星 数据 处 理 常 用 的 软件 或 依赖 库 错 误 ! 未 找到 引用 源 。 
有 FFTW, PGPLOT, PSRCAT, SIGPROC, PSRCHVIE, TEMPO/TEMPO2, DSPSR 和 PINT 
等 ,这 些 软件 之 间 相 互 依赖 关系 复杂 。 随 着 天 文 观 测 手段 的 发 展 ， 观 测 产生 的 数据 量 不 断 增 
加 , 桌面 计算 机 已 无 法 满足 数据 处 理 需 求 , 文 [5] 调 研 中 国 虚拟 天 文 台 核 心 功能 需求 时 认为 ， 
在 线 计 算 服务 可 以 更 高 效 地 进行 海量 天 文 数据 处 理 。 在 公共 的 数据 服务 器 上 进行 数据 处 理 环 
境 部 署 往往 需要 花费 科研 人 员 大 量 的 时 间 和 精力 , 对 软件 版 本 与 依赖 关系 的 管理 也 是 具有 挑 
战 的 工作 。 
早期 的 研究 尝试 使 用 基于 Hypervisor 的 虚拟 机 技术 (以 下 简称 “虚拟 机 ”) 实现 科学 数据 
处 理 环境 部 署 及 软件 版 本 管理 。 文 [7] 使 用 虚拟 机 部 署 混合 云 ,使 A&A 的 数据 和 应 用 程序 不 
受 基 础 架构 影响 以 相同 的 方式 工作 。 虚 拟 机 在 高 输入 /输出 和 高 并 发 的 科学 数据 处 理 方面 存 
FEB: CL) 虚拟 机 的 虚拟 化 机 制造 成 计算 资源 的 过 度 消耗 ; (2) 虚拟 机 跨 平 台 移 植 性 弱 ， 
数据 处 理 环境 难以 共享 ; (3) 虚拟 机 缺乏 应 用 级 的 监控 能 力 和 资源 调度 的 灵活 性 。 
容器 技术 由 有 望 解决 科学 数据 处 理 环 境 的 部 署 与 管理 中 存在 的 问题 。 容器 技术 不 完整 的 
虚拟 化 操作 系统 ， 通 过 共享 主机 内 核实 现 轻 量 级 操作 系统 层 虚 拟人 化， 利用 Namespace 和 
Cgroup 实现 虚拟 环境 的 隔离 与 管理 。 文 [9] 评 估 了 虚拟 机 和 容器 技术 的 性 能 ， 结 果 表 明 在 中 
央 处 理 器 性 能 、 内 存 否 吐 量 、 磁盘 输入 /输出 和 负载 测试 方面 , 容器 技术 的 表现 优 于 虚拟 机 。 
文 [10] 提 出 使 用 容器 技术 是 构建 科学 数据 处 理 平台 的 理想 选择 ， 在 隔离 的 执行 环境 中 分 配 不 
同 科学 目标 的 任务 , 可 以 显著 降低 数据 处 理 过 程 的 复杂 度 , 解决 依赖 库 版 本 冲突 问题 。 文 [11] 
采用 基于 Docker/VM 的 架构 ， 利 用 Python 等 编程 语言 实现 服务 器 端 数 据 批 处 理 。 文 [12] 使 


= 


容器 技术 实现 了 可 见 度 函数 校准 软 人 
现 自动 部 署 的 方法 极 大 提高 了 SAGECaL 分 布 式 集群 的 部 署 效 率 。 


了 基于 Web 
将 看 


了 天 文 软件 的 运行 , 容器 技术 可 以 帮助 科 太 
[14] 创 建 了 基于 Docker 的 容器 框架 
2 的 容器 调度 器 和 专门 用 于 天 文 数据 输出 的 可 视 化 工具 。 
究 所 需 的 软件 环境 封装 在 容器 镜像 中 ， 方 
容器 管理 通常 使 用 命令 行 界面 “Command-Line 
学 习 如 何 利 用 容器 处 理 数据 ,降低 了 科学 数据 的 处 型 
户 界面 (Graphical User Interface, GUD 管理 


(Kliko), J 


人 员 重 新 配置 数据 处 到 


F SAGECaL 的 快速 部 署 ， 研 究 表明 ， 使 / 


更 其 他 科研 人 员 复 制 和 扩 


] 容 器 技术 实 


文 [13] 在 容器 环境 中 测试 
环境 并 生成 测试 结果 。 文 
于 运行 一 个 或 多 个 相关 的 计算 作业 ， 并 实现 
文 错误 ! 未 找到 引用 源 。 


展 结 果 。 


Interface，CLI)， 科 研 人 员 需 要 时 间 来 


效率 。 目前 已 有 的 工具 尝试 使 用 图 


形 用 


E 容 器, 例如 Portainer Chttps://www.portainer.io/), 


minikube GUI (https://minikube.sigs.k8s.io/docs/tutorials/setup_minikube_gui/ ), DockStation 


Chttps://dockstation.io/) 等 。 但 这 些 工 


并 未 针对 科学 数据 处 到 


术 创 建 数据 处 理 环境 的 使 用 场景 ， 这 些 工 具 仍 存在 优化 空间 。 


本 文 基于 Docker 开源 容器 引擎 实现 了 新 疆 天 文 台 脉 冲 星 数 
进行 脉冲 星 数据 处 得 


署 , 对 比 测试 了 容器 与 虚拟 机 
空 制 容器 框架 的 图 形 


1 容器 镜像 


1.1 镜像 封装 
为 了 提高 科研 人 员 数 据 处 型 


星 数 据 处 理 服务 器 上 完成 了 容器 框架 的 部 署 ， 应 月 


HORIN 


进行 优化 ， 对 于 利 ) 


容器 技 


居 处 理 环 境 的 封装 与 快速 部 


表 1 镜像 的 组 成 


Table 1 Components of the Images 


并 提高 资源 利 月 
依赖 分 层 封装 在 标准 的 容器 镜像 当中 ， 各 层级 镜像 所 包含 的 软件 如 表 1。 


LE 的 资源 利用 率 与 稳定 性 , 设计 并 实现 了 
j 户 界面 , 针对 天 文 数据 处 理 需 求 进行 了 功能 优化 。 在 新 疆 天 文 台 脉冲 
于 实际 的 科学 数据 处 理工 作 当 中 。 


HZR, 本 文 将 脉冲 星 数据 处 理 软件 和 


Type Layer The components of the Top Layer 
A Layer A 基础 Linux 系统 (Ubuntu) 
B Layer A+B 1ibX11，gcc，gcc-ct+ 等 基础 依赖 环境 
C Layer A+B+C FFTW、 CFITSIO, PGPLOT 及 其 它 基础 软件 
D Layer A+B+C+D TEMP02、PSRCHIVE 等 脉冲 星 数据 处 理 软件 


E Layer A+B+C+D+E 


Anaconda, 


以 Ubuntu 为 基础 镜像 ， 在 不 同 层级 的 镜像 中 有 
图 像 利 月 
程序 时 ， 可 以 生成 一 个 Python2 的 容器 环境 使 月 
可 以 直接 使 用 完整 的 脉冲 星 数据 处 至 


与 软件 版 本 。 例 如 对 PGPOLT 


绘制 的 


H Pillow 库 进 行 处 到 


TensorFlow 等 进 阶 工具 


计划 地 封装 了 不 同 对 应 关系 的 依赖 环境 


环境 快速 


E， 当 需要 运行 编写 较 早 的 
H PIL 库 。 刚 接触 脉冲 星 数 据 处 理 的 研究 生 ， 
于 展 科 学 研究 , 由 于 容器 的 隔离 性 , 无 需 担忧 


配置 错误 影响 同一 服务 器 上 运行 的 其 他 容器 。 有 经 验 的 科研 人 员 可 根据 需求 选择 指定 版 本 的 


软件 环境 ， 并 人 允许 通过 生成 多 个 容器 组 


1.2 图 形 界 面 的 容器 配置 

根据 科研 人 员 提 出 
天 文 数据 处 理 中 需要 使 
有 的 VNC 镜像 在 部 署 脉 ? 


的 需求 ， 本 文 尝试 对 带 
| 的 依赖 关系 复杂 ， 使 月 


图 
面 实现 
中 安装 
端口 并 


界面 的 天 文 数据 处 理 环境 时 ， 本 文 基于 
图 形 界面 ， 并 利用 Tightvncserver 实现 远程 访问 。 实 体 计算 机 配置 方面 需要 在 主 系统 
X11-xserver-utils, 允许 Docker 访问 X11 的 显示 接口 ,在 容器 创建 时 需要 共享 本 地 unix 
侈 改 环境 变量 ， 避 免 在 容器 内 运行 


= 


图 形 界 面 的 数据 处 到 


已 安装 好 脉冲 星 处 型 


合成 数据 处 理 管线 。 


GUI 应 用 程序 遇 到 问题 。 


环境 进行 容器 封装 测试 。 
H DockerHub (https://hub.docker.com/) 中 已 
星 数据 处 理 软件 时 出 现 依赖 冲突 ， 导 致 实现 困难 。 因 此 在 部 署 带 
软件 的 镜像 ， 使 用 Xfce K 


2 基于 容器 的 数据 处 理 架 构 部 署 


2.1 架构 设计 


在 新 疆 天 文 台 脉冲 星 数据 处 理 服 务 器 上 部 署 了 基于 容器 的 数据 处 理 架 构 , 架构 设计 包括 


硬件 环境 、 软 件 部 署 及 图 形 用 户 界 面 ， 具 体 设 计 如 图 1。 
2.2 WEH 


jm 


脉冲 星 数 据 处 理 环 境 核心 为 数据 处 理 服 务 器 ， 数 据 人 处理 服务 器 型 号 为 浪潮 NF5460M4， 
配置 如 表 2。 


表 2 数据 处 理 服务 器 配置 


Table 2 Configuration of the data processing server 


Name 


数据 处 到 
太 网 连接 管理 


CPU Intel Xeon E5-2630 v4 *2 (20 cores 40 threads) 
RAM 256 GB RAM 
GPU NVIDIA Tesla P4 8GB 

Network interface 10GbE 


Hard disk 1TB SSD *2 10TB HDD *36 


服务 器 使 用 万 兆 以 太 网 挂 载 了 多 台 NES 服务 器 ， 扩 展 存储 空间 ， 通 过 干 兆 以 


服务 器 与 公共 数据 服务 器 。 将 容器 管理 模块 与 私有 镜像 库 部 署 在 独立 的 服务 器 


上 有 利于 系统 的 维护 ， 且 可 将 研究 团 组 的 数据 处 理 环 境 快速 迁移 至 高 性 能 计算 集群 。 


2.3 软 伯 


部 署 


2.3.1 基础 软件 


数据 处 到 


架构 部 署 的 基础 软件 信息 如 下 : 


Docker_19.03.8: 使 用 Docker 作为 容器 引擎 ， 通 过 中 间 层 与 本 文 开 发 的 图 形 用 户 界 面 


连接 。 


cAdviosr_0.43.0: cAdviosr 用 于 分 析 容 器 的 资源 使 用 情况 和 性 能 指标 ， 负 责 收集 容器 中 
的 实时 信息 ， 并 确定 主机 的 系统 资源 使 用 情况 。 

InfluxDB_1.5.3: 存储 Cadiviosr 生成 的 数据 ， 实 现 监 控 数 据 的 持久 化 。 

Grafana_8.3.2: 通过 使 用 可 视 化 工具 向 管理 员 展 示 监 控 数 据 和 用 户 的 容器 信息 。 

Tomcat 5.0.28: 为 图 形 用 户 界面 提供 服务 的 应 用 服务 器 。 

Mysql_5.0.24: 用 于 存储 用 户 信 息 。 
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Fig. 1 Container-based arc 


2.3.2 私有 镜像 库 


Management Server 


图 1 基于 容器 的 脉冲 星 数据 处 理 环境 架构 


Harbor 


Docker 


Operating 
System 


Public Data Server 


hitecture of pulsar data processing environment 


由 于 网 络 带宽 的 限制 与 私人 镜像 打包 的 需求 , 本 文 使 用 Harbor_2.3.4 私有 库 工具 存储 与 
管理 脉冲 星 数据 处 理 环境 的 镜像 。 私 有 镜像 库 部 署 在 公共 数据 服务 器 上 ,由 于 科研 人 员 不 直 
接 使 用 Harbor 对 镜像 进行 操作 ， 实 际 的 镜像 使 用 权限 由 图 形 用 户 界 面 控制 。 


2.4 图 形 用 户 界面 


科研 人 员 可 登录 图 形 用 户 界面 使 用 对 用 户 信 息 、 
面 操作 指引 ， 科 研 人 员 无 需 学 习 容器 的 操作 与 实现 原理 ， 
面 只 记录 操作 信息 , 中 间 层 负责 将 操作 信 ， 


镜像 、 


作 指 令 。 图 形 用 户 界面 功能 模块 如 图 3。 


2.4.1 多 用 户 管理 与 身份 验证 


恩 转 换 为 具体 的 指 


容器 、 数 据 卷 进行 管理 ， 通 过 页 


图 形 用 户 界面 首页 如 图 2。 管理 页 


令 控 制 容器 框架 , 完成 用 户 的 操 


容器 框架 在 使 用 中 通常 由 管理 员 集 中 管理 , 在 科学 数据 处 理 中 服务 器 通常 由 多 个 科研 人 


员 共 享 使 用 , 灵活 的 多 用 户 管理 方式 更 适合 


管理 ,科研 人 员 可 以 直接 管理 个 人 的 容器 、 镜 像 和 数据 卷 。 用 户 权 FP 


据 库 中 信息 进行 控制 , 底层 容器 框架 的 升级 及 硬件 


响 。 


基体 需求 。 本文 在 图 形 用 户 界面 中 实现 了 多 用 户 


民 由 图 形 用 户 界 面 根据 数 


平台 的 更 换 不 会 对 科研 人 员 的 操作 带 来 影 


作 期 刊 
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managerment 


System state 


Main Container [pulsar data server) {@ IP 210.73.36.192 | 
yxc Container Image 
CPU: no limit state: running port: 5909 ÈJ name:pulsar:full2 
Memory: no limit Container ID: { 48d4c068627d } Image ID:{2dbbO6d6d29f} 


q 
Mounted folder(except public folders) | /yxc [500GB] Long Time -->local 


Auxiliary Container [pulsar data server] IP 210.73.36.192 | 
Container Image 
state: running port: 6930 es name:pulsar:full2 
Container ID: { 50c1a0c69858 } Image ID:{150e20bc13df} 


a 
Mounted folder(except public folders) | /yxc [500GB] Long Time -->local 


图 2 图 形 用 户 界面 


Fig.2 Graphical user interface 
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User operation module L Management module _ 


图 3 图 形 用 户 界面 功能 模块 
Fig.3 Functional modules of the graphical user interface 

与 传统 的 管理 系统 独立 的 身份 验证 方式 不 同 , 本 文通 过 验证 “初始 容器 ”完成 身份 验证 。 
系统 创建 新 用 户 时 同时 生成 一 个 “初始 容器 ”该 容器 包含 完整 的 脉冲 星 数 据 处 理 环 境 ， 科 
研 人 员 可 直接 使 用 该 容器 进行 数据 处 理 。 当 科研 人 员 使 用 图 形 用 户 界面 进行 容器 管理 时 ,只 
需 输 入 “初始 容器 ”端口 号 和 “初始 容器 ”中 的 用 户 密码 ， 身 份 验 证 将 通过 中 间 层 直接 在 容 
器 内 进行 。 这 种 认证 方式 的 优点 是 不 需要 记录 专用 的 管理 密码 ， 数据库 中 也 不 存储 密码 ， 提 
高 科研 人 员 使 用 的 便捷 性 与 安全 性 。 
2.4.2 容器 管理 

容器 管理 模块 可 实现 启动 /停止 容器 、 删 除 容器 、 创 建 容器 、 封 装 容 器 以 及 导出 容器 。 
容器 创建 功能 采用 引导 的 方式 , 系统 根据 操作 信息 生成 容器 并 记录 生成 信息 , 科研 人 员 通 过 


自动 分 配 的 端口 号 登录 容器 。 导 出 容器 功能 可 将 容器 封装 至 .tar 文件 并 存储 至 公共 数据 服务 
器 ， 科 研 人 员 在 指定 时 间 内 利用 生成 的 下 载 地 址 保存 导出 的 容器 。 
2.4.3 镜像 管理 
容器 管理 模块 可 实现 镜像 的 删除 与 分 享 。 镜 像 分 享 功能 可 将 封 则 
的 其 他 科研 人 员 使 用 。 
2.4.4 ”数据 卷 管理 
为 了 在 多 用 户 环 境 下 灵活 使 用 容器 数据 卷 , 满足 天 文 数 据 处 理 的 需求 , 本 文 将 数据 卷 分 
为 3 类 : d) 只 读 共享 数据 卷 ; (2) 读 写 共 享 数 据 卷 ;3) 个 人 数据 卷 。 只 读 共享 数据 卷 存 储 公 
数据 ， 只 读 属 性 可 以 有 效 防止 误 删 除 ， 只 有 指定 的 账号 拥有 写 入 权限 。 读 写 共享 数据 卷 为 
两 类 : (1) HDD 上 的 读 写 共享 数据 卷 ， 便 于 不 同 用 户 之 间 的 数据 传输 与 临时 大 容量 中 间 数 
据 的 存储 ; (2) SSD 上 的 读 写 共享 数据 卷 ， 供 高 VO 操作 的 数据 处 理 使 用 。 默 认 情况 下 个 
人 数据 卷 只 可 本 人 使 用 ， 数 据 卷 共享 功能 可 选择 只 读 / 读 写 的 方式 分 享 个 人 数据 卷 给 其 他 科 
研 人 员 ， 便 于 合作 与 交流 。 


后 的 容器 分 享 给 系统 内 


: 


3 基于 容器 的 脉冲 星 数据 处 理 


3.1 脉冲 星 数据 处 理性 能 对 比 测试 
3.1.1 脉冲 星 数据 相干 消 色散 
星际 介质 是 低温 的 等 离子 体 , 脉冲 星 信和 号 通过 星际 介质 到 达 地 球 时 会 产生 色散 ,使 得 高 
频 部 分 先 到 达 ， 低 频 部 分 后 到 达 吕 ]。 LA SSR, vz 的 观测 时 延 At，At = Kpx ' 
DM: (vI? — v3?) ， 其 中 ，kpm 是 色散 常数 ， 大 小 为 4.148808MHz?pc-tcm3s; DM 是 色散 
度 ， 它 是 脉冲 星 与 地 球 视 向 距离 上 电子 数 密度 的 积分 ， 由 DM = find 表示 ， 其 中 me 是 电子 
数 密度 , d 为 脉冲 星 与 观测 望远镜 的 视 向 距离 。 星际 介 质 对 脉冲 星 信 号 产生 严重 的 色散 影 响 ， 
造成 脉冲 轮廓 展 宽 和 变形 , 严重 时 甚至 可 能 导致 无 法 观测 到 脉冲 轮廓 , 因此 必须 对 脉冲 星 观 
测 数 据 进行 消 色 散 处 理 。 脉 冲 星 数 据 消 色散 的 方法 有 两 种 ， 即 非 相 干 消 色 散 与 相干 消 色散 。 
相干 消 色散 是 将 色散 效应 等 效 为 滤波 器 ,首先 将 脉冲 星 数 据 进行 傅 里 叶 变 换 , 将 频 域 上 
的 数据 乘 以 等 效 滤波 器 传递 函数 的 反 函 数 〈chirp 函数 )， 之 后 再 进行 傅 里 叶 变 换 的 道 变 换 ， 
最 终 得 到 消 色散 后 的 脉冲 星 数据 。 离 散 chirp 函数 为 


1 
Ho -1_1 fe \801 2 ea +2nDM fe 
chirp = TkHę = N | + (s) | exp{ i OATES |} (1) 


B o<k<ť 
an lEs a P y 为 离散 信号 的 频 域 点 数 ; 万 为 观测 的 中 心 频率 ; B 为 观 
-< 
N 
测 带 宽 。 


相干 消 色 散 理论 上 可 以 完全 消除 星际 介质 的 色散 影响 , 但 是 其 过 程 包含 傅 里 时 变换 及 逆 
变换 ， 需 要 占用 大 量 的 CPU 资源 和 内 存 资源 。 
3.1.2 测试 环境 和 测试 数据 
为 对 比 在 实体 计算 机 、 虚 拟 机 和 容器 中 脉冲 星 数据 处 理性 能 ,本文 在 实验 环境 中 对 脉冲 
星 数据 进行 相干 消 色 散 ， 测 试 环境 信息 见 表 3， 测 试 数据 信息 见 表 4。 
表 3 测试 环境 


Table 3 Test environment 


in 


Name 


CPU Intel i9-10900K (10 cores 20 threads) 
RAM 64 GB RAM 


Software 
0S 
Network Interface 


Hard Disk 


Name 


表 4 测试 数据 


Table 4 Test data 


TEMP02 2020. 04. 1 
Debian 10. 10.0 
10GbE 


1TB NVMe SSD 


Observation Target 
Telescope 
Polarization 
Samp | ing 
Data Type 


Size of the Data 


3.1.3 单 任 务 对 比 测 试 


本 文 分 别 基于 实体 计生 
数据 进行 相干 消 色 散 处 理 ， 


设置 相同 线程 数 ， 关 闭 


机 、 虚 拟 机 和 容器 ， 利 用 TEMPO2 对 脉冲 星 J0437-4715 的 基带 
FE 必 要 程序 。 测 试 结果 见 表 5~ 表 7。 


表 5 实体 计算 机 数据 处 理 时 间 


J0437-4715 
Parkes 
2 


8 bits 


Baseband data (. dada) 


12. 80GB 


i 


Table 5 Data processing time of the physical computer 


1 2 3 4 5 
Time (s) 45. 043 45. 148 45. 103 45. 107 45. 098 
He 6 虚拟 机 数据 处 理 时 间 
Table 6 Data processing time of the VM 
1 2 3 4 5 
Time (s) 47. 783 47. 623 47.975 47. 674 47. 902 
表 7 容器 数据 处 理 时 间 
Table 7 Data processing time of the container 
1 2 3 4 5 
Time (s) 46. 028 45. 962 45. 847 45.991 46. 084 


对 比 测试 结果 可 以 看 出 , 各 3 


3.1.4 多 任务 对 比 测试 
在 相 


T 


容器 ， 使 用 测试 脚本 使 每 轮 测试 ; 
测试 5 次 。 


拟 多 


j 户 处 理 场 景 )， 


F 台 测试 结果 相差 不 大 , 容器 消耗 的 时 间 更 接近 实体 计算 机 。 


配置 的 三 台 实 体 计算 机 硬件 信息 见 表 3) 上 分 别 运行 三 个 、 五 个 线程 /虚拟 机 / 
各 线程 /虚拟 机 /容器 同时 对 数据 进行 相干 消 色散 处 理 


( 模 


在 对 比 实 验 中 ， 以 最 后 一 个 线程 /虚拟 机 /容器 完成 数据 处 理 的 时 间 为 单 次 测试 的 耗 时 ， 
和 图 4 (b)。 为 对 比 不 同 平 台 的 资源 分 配 均 衡 性 ， 对 测试 结果 


数据 处 理 所 耗 时 间 如 图 4 Ca) 
计算 总 体 标准 差 Co): 


2 
Èi (Xi 一 无 2] 
o= Z AE. 


(2) 


耗 时 的 总 体 标准 差 如 图 4 (Cc) 和 图 4 (dd. 
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(b)Data processing time(5) 
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图 4 多 任务 性 能 对 比 测试 


Fig.4 Multitasking performance comparison test 
实验 结果 表明 , 容器 相 较 于 虚拟 机 完成 相同 计算 量 的 脉冲 星 数 据 处 理 所 耗 时 间 更 少 , 所 
耗 时 间 波 动 和 总 体 标准 差 对 比分 析 结 果 表 明 容 器 技术 的 资源 分 配 相 较 于 虚拟 机 更 为 均衡 , H. 
数据 处 理 过 程 更 为 稳定 。 与 实体 计算 机 测试 结果 对 比 表 明 , 在 多 任务 运行 时 资源 的 均衡 分 配 


能 带 来 更 优 的 总 体 数 据 处 理性 能 。 
3.2 脉冲 星 数据 处 理 管线 测试 


使 用 所 部 署 的 数据 处 理 架构 〈 数 据 处 理 服务 器 配置 见 表 2) 创建 容器 并 实现 脉冲 星 测 时 


数据 处 理 管线 ， 测 试 使 用 Parkes 望远镜 052004 年 发 表 的 观测 数据 ， 数 据 信 息 见 表 8。 脉 冲 


星 数据 处 理 通常 要 经 历 以 下 步骤 : 数据 下 载 、 数 据 预 处 理 、 具 体 数据 分 析 。 根 据 不 同步 又 的 
数据 处 理 需 求 ， 利 用 私有 镜像 库 的 镜像 文件 生成 多 个 容器 ， 实 现 数据 的 自动 预 处 理 ， 并 利用 


容器 内 的 脉冲 星 数据 处 理 软件 进行 分 析 ， 所 使 用 的 容器 信息 见 表 9。 
表 8 测试 数据 


Table 8 Test data 


Name 


Observation Target 
Telescope 
Data Type 

Observation Mode 


Number of Files 


J1539-5626 
Parkes 
PSRFITS(. rf) 
PSR 
4 


表 9 容器 信息 


Table 9 Containers information 


Container Image Mounted data volumes 


A B-Type 读 写 共享 数据 卷 ， 个 人 数据 卷 
B D-Type 个 人 数据 卷 
c D-Type 只 读 共 享 数据 卷 ， 读 写 共 享 数据 卷 ， 个 人 共享 数据 郑 
数据 处 理 流水 线 如 下 : 
1) 由 于 公共 服务 器 访问 限制 (指定 容器 暴露 端口 )， 使 用 容器 4 下 载 数据 文件 夹 并 转 存 在 个 


人 文件 夹 的 子 目录 “rf” 当 中 。 
2) 容器 B 上 运行 的 循环 脚本 负责 监控 个 人 文件 夹子 目录 “rf” 中 的 .f 文 件 , 发 现 新 存 入 的 
文件 会 自动 调用 PSRCHIVE 命令 进行 预 处 理 : ‘pam -DFTp -e FT *.rf’. 
3) 容器 B 将 预 处 理 后 的 数据 转 存 至 个 人 文件 夹子 目录 “ft” 当 中 。 
4) 使 用 容器 C 查看 预 处 理 后 的 数据 文件 脉冲 轮廓 ， ‘pav -DFTp *.FT’, WK 5。 


wa afar ha ira “whey ena 


| WwW Mil Www 


图 5 预 处 理 后 的 脉冲 轮廓 (pav -DFTp *. FT) 


Fig.5 Pulse profile after preprocessing (pav -DFTp *. FT) 
5) 选取 信 噪 比 高 的 文件 利用 PSRCHIVE 的 paas 命令 制作 标准 轮廓 〈.std )。 
6) 使 用 PSRCHIVE 和 PSRCAT 软件 生成 tim 文件 和 par 文件 。 数 据 拟 合 后 得 到 时 间 序 列 残 
差 ， 结 果 如 图 6。 


MPMRA MPMDEC 


RE-FIT New par ew timfRestar 
+ 
i 


图 6 时 间 序 列 残 差 结果 


Fig.6 Timing residual result 


3.3 科研 成 果 

FAST 观测 产生 的 数据 量 巨 大 ， 桌 面 计算 机 上 无 法 完成 数据 处 理工 作 。 完 成 容器 框架 在 
脉冲 星 数据 处 理 服务 器 上 的 部 署 后 ， 科 研 人 员 利 用 快速 生成 的 数据 处 理 环 境 来 处 理 FAST 
数据 并 已 产生 科学 成 果 。 

黑 寡妇 脉冲 星 中 发 现 的 第 4 例 等 离子 体 透镜 现象 "PSR J1720-0533 是 在 FAST 多 科学 
目标 同时 巡天 (the Commensal Radio Astronomy FAST Survey, CRAFTS) 09 的 漂移 扫描 中 
发 现 的 。 科 研 人 员 利 用 本 文部 署 的 数据 处 理 架 构 对 PSR J1720-0533 观测 数据 进行 处 理 ， 发 
现 该 脉冲 星 存 在 明显 的 掩 食 现象 , 这 是 黑 坦 妇 脉冲 星 的 典型 特征 。 使 用 图 形 用 户 界 面 可 以 快 
速生 成 多 个 脉冲 星 数据 处 理 环境 , 在 各 个 容器 内 运行 不 同 的 数据 处 理 脚本 可 以 提高 对 比分 析 
的 效率 , 科研 人 员 对 数据 处 理 结果 进一步 分 析 发 现 该 脉冲 星 在 进入 掩 食 过程 中 存在 等 离子 透 
镜 现 象 ， 这 是 黑 窃 妇 脉冲 星 种 族 中 发 现 的 第 四 例 等 离子 透镜 现象 。 


4 总 结 


ION 


本 文 基于 容器 技术 封装 了 脉冲 星 数据 处 理 环 境 并 建立 私有 镜像 库 , 实现 了 脉冲 星 数据 处 
理 环 境 的 快速 部 署 。 在 脉冲 星 数 据 处 理 服 务 嚣 上 实现 了 基于 容器 的 数据 处 理 架 构 部 署 , 设计 
并 开发 了 图 形 用 户 界面 , 根据 科学 数据 处 理 需要 优化 了 容器 管理 功能 , 降低 了 科研 人 员 利 用 
容器 进行 数据 处 理 的 学 习 成 本 。 使 用 实体 计算 机 、 虚 拟 机 和 容器 对 脉冲 星 数据 处 能 进行 了 对 
比 测试 , 测试 表明 容器 的 数据 处 理性 能 与 实体 计算 机 相当 , 优 于 虚拟 机 。 在 多 任务 并 发 的 情 
OLR, 容器 环境 具有 更 好 的 负载 均衡 能 力 及 稳定 性 。 目 前 完成 部 署 的 数据 处 理 服 务 器 已 用 于 
脉冲 星 数据 处 理工 作 中 并 产生 了 相关 科研 成 果 。 
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Abstract: With the rapid development of astronomical observation technology, astronomical 
data processing software has become increasingly complex, and it is challenging to deploy the 
software environment. Container technology was used for packaging the pulsar data processing 
environment to images by applying hierarchical encapsulation. According to the data processing 
requirements, a private library of images has been established, and the users can select the images 
according to the data processing mode. The hardware environment, the traditional virtual machine 
environment, and the container environment performed coherent dedispersion for pulsar baseband 
data. The resource utilization and data processing efficiency of different platforms are compared. 
Experimental results show that the performance of the container is similar to the physical machine. 
In multi-threaded parallel processing, the resource allocation of the container is more reasonable 
and can improve the efficiency of service resource utilization. Implemented container-based data 
processing architecture deployment on Xinjiang Astronomical Observatory pulsar data processing 
server, designed and developed the container management graphical user interfaces. Through 
optimizing functions such as multi-user login, authentication, and data volume mount to improve 
the efficiency of astronomical data processing using container technology. 
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